We propose the first joint audio-video generation framework that brings engaging watching and listening experiences simultaneously, towards high-quality realistic videos. To generate joint audio-video pairs, we propose a novel Multi-Modal Diffusion model (i.e., MM-Diffusion), with two-coupled denoising autoencoders. In contrast to existing single-modal diffusion models, MM-Diffusion consists of a sequential multi-modal U-Net for a joint denoising process by design. Two subnets for audio and video learn to gradually generate aligned audio-video pairs from Gaussian noises. To ensure semantic consistency across modalities, we propose a novel random-shift based attention block bridging over the two subnets, which enables efficient cross-modal alignment, and thus reinforces the audio-video fidelity for each other. Extensive experiments show superior results in unconditional audio-video generation, and zero-shot conditional tasks (e.g., video-to-audio). In particular, we achieve the best FVD and FAD on Landscape and AIST++ dancing datasets. Turing tests of 10k votes further demonstrate dominant preferences for our model. The code and pre-trained models can be downloaded at https://github.com/researchmm/MM-Diffusion.
translated by 谷歌翻译
当系统中有某些未知术语和隐藏的物理机制时,基于第一原理的复杂物理系统的管理方程可能会非常具有挑战性。在这项工作中,我们采用深度学习体系结构来学习基于从完全动力学模型中获取的数据的等离子体系统的流体部分微分方程(PDE)。证明了学到的多臂流体PDE可以融合诸如Landau阻尼等动力学效应。基于学习的流体闭合,数据驱动的多音阶流体建模可以很好地再现从完全动力学模型中得出的所有物理量。Landau阻尼的计算阻尼率与完全动力学的模拟和线性理论一致。用于复杂物理系统的PDE的数据驱动的流体建模可以应用于改善流体闭合并降低全球系统多规模建模的计算成本。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
在本文中,我们在CVPR 2022中提供了EGO4D自然语言查询挑战的技术报告。由于对视频内容的全面了解,自然语言查询任务是具有挑战性的。大多数以前的工作基于第三人称视图数据集解决了此任务,而在以自我为中心的视图中,很少有研究兴趣。不过,已经取得了巨大进展,我们注意到以前的作品无法很好地适应以自我为中心的视图数据集,例如,ego4d主要是因为两个原因:1)ego4d中的大多数查询都有很小的时间持续时间(例如,少于5秒钟);2)EGO4D中的查询面临着对长期时间订单的更复杂的视频理解。考虑到这些,我们建议解决这一挑战的解决方案,以解决上述问题。
translated by 谷歌翻译
与传统方法相比,学到的图像压缩已在PSNR和MS-SSIM中取得了非凡的速率延伸性能。但是,它遭受了密集的计算,这对于现实世界的应用是无法忍受的,目前导致其工业应用有限。在本文中,我们将神经体系结构搜索(NAS)介绍到具有较低延迟的更有效网络,并利用量化以加速推理过程。同时,已经为提高效率而做出了工程努力。使用PSNR和MS-SSIM的混合损失以更好的视觉质量进行了优化,我们获得的MSSIM比JPEG,JPEG XL和AVIF在所有比特率上都高得多,而JPEG XL和AVIF之间的PSNR则获得了PSNR。与JPEG-Turbo相比,我们的LIC的软件实施实现了可比较甚至更快的推理速度,而多次比JPEG XL和AVIF快。此外,我们的LIC实施达到了145 fps的惊人吞吐量,用于编码为208 fps,用于在Tesla T4 GPU上解码1080p图像。在CPU上,我们实施的延迟与JPEG XL相当。
translated by 谷歌翻译
密集的视频字幕旨在为未修剪视频中的一系列事件生成相应的文本描述,这些事件可以分为两个子任务,即事件检测和事件字幕。与以前分别解决这两个子任务的作品不同,最近的作品着重于增强两个子任务之间的任务间关联。但是,由于其特定于任务的解决方案的巨大差异,设计用于事件检测和字幕的任务间相互作用并不是微不足道的。此外,以前的事件检测方法通常会忽略事件之间的时间依赖性,从而导致事件冗余或不一致问题。在本文中,我们将事件检测定义为序列生成任务,并提出一个统一的预训练和微调框架,以自然增强事件检测和字幕之间的任务间关联。由于该模型将每个事件预测为以前的事件为上下文,因此事件之间的相互依赖性被充分利用,因此我们的模型可以检测到视频中更多样化和一致的事件。 ActivityNet数据集上的实验表明,我们的模型优于最新方法,并且在对大型视频文本数据进行预训练时,可以进一步提高。代码可在\ url {https://github.com/qiqang/uedvc}上获得。
translated by 谷歌翻译
文本视频检索是一项具有巨大实际价值的任务,并受到了越来越多的关注,其中学习时空视频表示是研究热点之一。最先进的视频检索模型中的视频编码通常会直接采用预训练的视觉主链,其网络结构固定,因此无法进一步改进它们以产生细粒度的空间时间表视频表示。在本文中,我们提出了令牌移位和选择网络(TS2-NET),这是一种新型的令牌移动和选择变压器体系结构,该架构会动态调整令牌序列,并从输入视频样本中选择时间和空间维度中的信息令牌。令牌移位模块在时间上暂时移动整个代币特征,来回跨相邻帧,以保留完整的令牌表示并捕获微妙的动作。然后,令牌选择模块选择对局部空间语义贡献最大的令牌。基于彻底的实验,拟议的TS2-NET在主要文本视频检索基准上实现了最先进的性能,包括有关MSRVTT,VATEX,LSMDC,LSMDC,ActivityNetnet和DideMo的新记录。
translated by 谷歌翻译
隐式事件参数提取(EAE)旨在确定可以散布在文档上的参数。以前的大多数工作都集中在学习参数和给定的触发因素之间的直接关系,而与远程依赖关系的隐式关系并未得到很好的研究。此外,最近基于神经网络的方法取决于大量的标记数据进行培训,这是由于高标签成本而无法获得的。在本文中,我们提出了一种基于课程学习的及时调整(CUP)方法,该方法通过四个学习阶段解决了隐性的EAE。阶段是根据语义图中与触发节点的关系定义的,该阶段很好地捕获了参数和触发器之间的长距离依赖关系。此外,我们将基于及时的编码器模型集成在一起,以从每个阶段中从预训练的语言模型(PLM)中获取相关的知识,在该阶段中,及时模板适应了学习进度以增强参数的推理。两个众所周知的基准数据集的实验结果显示了我们提出的方法的巨大优势。特别是,我们在完全监督和低数据的场景中胜过最先进的模型。
translated by 谷歌翻译
与常规的基于统计参数的方法相比,已经证明了基于深度学习的歌声综合(SVS)系统可以灵活地产生更好的质量唱歌。但是,神经系统通常是渴望数据的,并且很难通过有限的公共可用培训数据来达到合理的歌唱质量。在这项工作中,我们探索了不同的数据增强方法,以促进SVS系统的培训,包括基于沥青增强和混合增强为SVS定制的几种策略。为了进一步稳定培训,我们介绍了循环一致的培训策略。在两个公开唱歌数据库上进行的广泛实验表明,我们提出的增强方法和稳定训练策略可以显着改善客观和主观评估的绩效。
translated by 谷歌翻译
我们提出了一种新颖的形状意识的关系网络,用于内窥镜粘膜颌下粘膜释放(ESD)手术中的准确和实时地标检测。这项任务具有很大的临床意义,但由于复杂的手术环境中出血,照明反射和运动模糊而极其挑战。与现有解决方案相比,通过使用复杂的聚合方案忽略靶向对象之间的几何关系或捕获关系,所提出的网络能够实现令人满意的精度,同时通过充分利用地标之间的空间关系来保持实时性能。我们首先设计一种算法来自动生成关系关键点热量表,其能够直观地代表地标之间的空间关系的先验知识,而无需使用任何额外的手动注释工作。然后,我们开发两个互补正规计划,以逐步将先验知识纳入培训过程。虽然一个方案通过多任务学习引入像素级正则化,但另一个方案通过利用新设计的分组的一致性评估器来实现全局级正则化,该评估将关系约束以越野方式添加到所提出的网络。这两个方案都有利于训练模型,并且可以随时推动才能卸载,以实现实时检测。我们建立了一个大型内部数据集的ESD手术,用于食管癌,以验证我们提出的方法的有效性。广泛的实验结果表明,我们的方法在准确性和效率方面优于最先进的方法,更快地实现了更好的检测结果。在两个下游应用的有希望的结果进一步证实了我们在ESD临床实践中的方法的巨大潜力。
translated by 谷歌翻译